Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique[1]. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal[2],[3],[4],[5],[6].

  1. Richard Sutton et Andrew Barto, Reinforcement Learning, MIT Press, (ISBN 978-0-585-02445-5, lire en ligne [archive du ])
  2. Schultz, W, Dayan, P & Montague, PR., « A neural substrate of prediction and reward », Science, vol. 275, no 5306,‎ , p. 1593–1599 (PMID 9054347, DOI 10.1126/science.275.5306.1593, CiteSeerx 10.1.1.133.6176)
  3. P. R. Montague, P. Dayan et T. J. Sejnowski, « A framework for mesencephalic dopamine systems based on predictive Hebbian learning », The Journal of Neuroscience, vol. 16, no 5,‎ , p. 1936–1947 (ISSN 0270-6474, PMID 8774460, DOI 10.1523/JNEUROSCI.16-05-01936.1996)
  4. P.R. Montague, P. Dayan, S.J. Nowlan, A. Pouget et T.J. Sejnowski, « Using aperiodic reinforcement for directed self-organization », Advances in Neural Information Processing Systems, vol. 5,‎ , p. 969–976 (lire en ligne)
  5. P. R. Montague et T. J. Sejnowski, « The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms », Learning & Memory, vol. 1, no 1,‎ , p. 1–33 (ISSN 1072-0502, PMID 10467583)
  6. T.J. Sejnowski, P. Dayan et P.R. Montague, « Predictive hebbian learning », Proceedings of Eighth ACM Conference on Computational Learning Theory,‎ , p. 15–18 (DOI 10.1145/230000/225300/p15-sejnowski, lire en ligne)

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search